2024/10/28

魔術方塊

 

開車的時候,小朋友要我趁紅燈的時候把魔術方塊復原,我一看已經轉得亂七八糟,便回答要等回家了才能把它復原。

回家後,去查了公式,然後開始動手,轉著轉著發現出現了不可能的情況。小朋友笑著說,他看網路影片,單層轉到45度角的時候,可以抓住一個角旋轉,他不記得轉了幾次...

小時候做家庭手工,曾經做過一陣子的魔術方塊,習得一個特殊技能:直接把魔術方塊解體重組。我輕鬆的把魔術方塊拆開,正在得意的時候,又發現了不應該出現的狀況:一個三面角有兩個面是同一個顏色。

這種情況只有一個可能,我問小朋友,是不是有把貼紙撕下來交換位置,他說有啊,不可以嗎?

無言。於是我也只得把有錯誤的貼紙撕下來重貼,然後恢復原狀。

這倒是讓我想起許多往事,像是40年前做家庭手工貼的貼紙品質不是很好,一旦貼錯,撕下來很容易就破了,只能報廢。現在的產品倒是不會有這個情況。

堂哥說當年做300個工錢才60元,我是完全沒印象了,但當年那些化學溶劑、塑膠、貼紙的氣味,反倒像是還留在鼻尖,依稀可聞。


阿祖的山刀


大學的時候參加登山社,有時候需要用到山刀,當時還沒有什麼網路購物,就向祖父詢問附近哪家五金行有在賣。

祖父問明了我要買開山刀的緣由(確認不是要去砍人),轉頭進了房間,然後拿了一把黑黝黝的刀給我:「免去買呀,這支系恁阿祖自己做的,用了要也記得還我喔。」「恁隴毋哉,恁阿祖挖熬耶,當初種田,犁田的工具、柴刀,攏馬係伊嘎己做耶... 」以下省略數百字。

祖父話不多,有關曾祖父的往事,大概是少數可以讓他打開話匣子的事情。

祖父過世之後,山刀不知道被哪位親戚收藏了,圖上是造型相似的刀品,但既然是商品照片嘛,長相自然比當初那把山刀好看很多。

印象中,祖父還有一把武士刀跟散彈槍,也是我小時候幫忙顧雜貨店時偶然發現的。這個,就留待後話吧。

2024/10/19

點子值不值錢

年輕的時候,覺得點子很值錢,常常覺得:「我這麼聰明,有這麼好的想法,肯定沒人想得到」。

隨著年紀漸長,慢慢發現世界上跟我一樣聰明、甚至比我更聰明的人,比比皆是。我想得到的點子,別人一樣想得到,屢試不爽。

尤其在一些熱門領域的創造、研發,凡是想到一個深思之後覺得值得進一步探究的點子,最好是假設世界上有另外五個團隊也想到了一樣的點子,而且其中至少有一個比你聰明、一個比你有資源、一個既比你聰明又比你有資源。

所以,要不然就是馬上動手做,要不然就是等著看別人收穫成果。但是即便你立刻著手進行,那些比你有資源或能力更強的團隊還是可能比你快。

所以,點子值不值錢?不能說不值錢,但是要「變現」還需要很多的努力,沒有強大的執行力做後盾,恐怕就只是空歡喜一場。

2024/10/07

「世界上所有的知識」該如何表示?「人物設定+語言模型」可以嗎?

https://huggingface.co/papers/2406.20094

隨著語言模型越來越大,需要的訓練資料也越來越多,我們面臨著「資料不夠用」的窘境;而許多研究也指出,如果直接使用語言模型生成的資料來訓練語言模型,會造成意料之外的問題(Will we run out of data? Limits of LLM scaling based on human-generated data)。

Tencent AI Lab 前陣子發表了一篇技術報告,Scaling Synthetic Data Creation with 1,000,000,000 Personas,雖然說是打著「生成高品質內容」的招牌,但個人覺得更有趣的是他們的一個觀點:透過10億個不同的人物設定,搭配大語言模型,可以視為對全世界的所有文字資訊的一種壓縮。(如圖)


個人對「表徵學習」(representation learning)這個研究主題很有興趣,主要的原因是這件事情反映出我們對「外在世界」的理解、詮釋與建構。我相信「每個人的觀點都不盡相同」在現代社會是屬於常識,但這些觀點的形成與運作方式,在人類這個群體裡,甚或是與其他物種之間,是否有共通之處,則是解答「人之所以為人」的有趣課題。

我個人覺得這個 Persona-Hub 的有趣之處,在於對「如何表徵知識」提出了別出心裁的觀點:人物定加上語言模型。這跳脫了傳統上以「某個潛空間latent space)的向量」作為表徵的限制,而採取「兩個潛空間(人物跟語言)的捲積」作為新的路線。而在數學上,能從「一個」跳出來,「兩個」其實就意味著「多個」,那就為這個問題開啟了一扇新的門。


這篇研究報告採用的方法也相當有趣,10億個人物設定的一部份也公開在 GitHub 上,這對需要大量使用人物誌的單位來說,應該是個不錯的應用案例。

2024/10/02

是的,我是「LLM 通往 AGI」的唱衰者

 

其實我一直都不覺得大語言模型(LLM)會通往通用人工智慧(AGI),但這顯然不是主流媒體的說法,尤其是每次 OpenAI 推出什麼「新奇」的產品時。
目前 OpenAI 最新的產品是 o1,主要是加入了一層 CoT (Chain of Thoughts),大幅提昇「透過逐步拆解來解決複雜問題」的能力。推出之後很多人拿來玩各種考試,幾乎都是高分通過。熱心網友拿前幾年台灣的大學入學測驗來測試,結果分數高達 PR88,分數足以上絕大多數的系所。

然而,這也不是故事的全貌。

介紹兩篇研究:

‘In awe’: scientists impressed by latest ChatGPT model o1 」這篇 Nature 上的文章指出,雖然 o1 在很多考試中贏過博士級的考生,但其實這個模型的「幻覺」(hallucination)比前幾代單純的 LLM 更加嚴重。這個產品與其拿來引導新手,毋寧更適合作為專家的助手(因為專家才能辨別AI 錯誤的部份加以修正)。

LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench」這篇研究直接拿 o1 來做 PlanBench(一個專門用來測試 LLM 規劃與推理能力的題庫),結果發現雖然在成績上比起 LLM 有大幅提昇,但其實依然不夠好,要號稱「大型推理模型」(Large Reasoning Model, LRM)似乎還需要一些努力。


是的,我是「LLM 通往 AGI」的唱衰者,它頂多是 AGI 的使用界面。我相信 LLM 是很有用的工具,但它絕對不是一個「萬能問答機」,除非你不在乎它會答錯。或許是我對機器的要求比較高,但如果我們不在乎會錯,那隨便問個人類就好了,至少你還可以把責任推給對方呢。